查看原文
其他

金融大模型基准测评:覆盖六大类二十五项任务,首批2个国内模型获A

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

2024年4月12日国务院印发《关于加强监管防范风险推动资本市场高质量发展的若干意见》,即新“国九条”。在第八部分“进一步全面深化改革开放,更好服务高质量发展”中,国家提出要着力做好科技金融、数字金融的重要意见,这表明金融+科技、金融+数字的发展战略是未来金融领域重点部署的任务之一。而金融大模型的研发在大语言模型快速发展的当下很好地契合了国家战略部署与企业发展需求,为金融行业更好地服务社会、服务人民提供了一种全新的科技赋能思路。
大语言模型向各行业的渗透与融合是一种科技发展趋势,就国内金融行业而言,很多金融大模型也在此时代浪潮中逐渐涌现。因此,如何严格依据国内金融监管制度、结合国内外金融领域知识,为中文原生金融大模型提供精准的量化评价标准,及时反馈国内外大模型发展状况,成为了一项重要的、必要的课题。
为了对国内外金融大模型的发展水平进行评估并据此提出改进建议,我们发布了SuperCLUE-Fin(SC-Fin)中文原生金融大模型测评基准。依据不同的任务类型,全方位、多角度地对金融大模型进行测评。

项目地址:https://github.com/CLUEbenchmark/SuperCLUE-Fin

文章地址:https://www.cluebenchmarks.com/superclue_fin.html


# SuperCLUE-Fin

1. 特点

(1)中文原生金融能力测评
立足于为通用人工智能时代提供中文世界评测基础设施,文字输入或prompt提示词都是中文原生的;并充分考虑国内金融行业发展现状以及我国的金融监管制度特点,致力于打造适合中国语境的金融大模型测评指标。
(2)广泛的金融应用场景
本次测评设置了六大金融领域相关应用场景、二十五项细分任务类型,涵盖了金融领域各行业从宏观到微观、从抽象到具体的各类实际问题,旨在全方位、多角度地考察金融大模型处理以上各类任务的综合实力。
(3)多样的问题考察方式
次测评采用了多种问题考察方式,形式上分为单轮问答、多轮问答;题型上包括名词解释、计算、简答、材料分析、综合论证等,旨在通过多样化的提问方式考察金融大模型处理从简答到复杂的各种应用问题的能力。
(4)开放式的多轮交互问答

为了充分还原用户体验场景,本次测评绝大多数题目采用开放式的多轮交互问答(少量为单轮),没有采用客观题作为测评数据,旨在高度反应用户与金融大模型之间的交互体验,对模型的交互问答能力做出更全面、更真实的考察。

2. 任务方向与评价体系
测评体系分为任务方向与评分标准。
2.1 任务方向
包括六大金融领域相关应用场景、二十五项细分任务类型。

基础能力

a.金融知识百科:考察模型对金融领域基础知识的掌握程度,包括基金、证券、期货、保险、投资、理财、税务、银行业务等等。具体子类任务包括:基金从业资格知识、证券从业资格知识、银行从业资格知识、保险从业资格CICE知识、经济师知识、精算师、理财规划师知识、期货从业资格知识、税务师知识、注册会计师(CPA)知识。

b.金融理解认知:考察模型对于金融领域相关文件的解读能力以及对于金融实体、金融意图、金融情绪等内容的判断与理解能力。具体子类任务包括:金融文件总结摘要、金融信息实体抽取、金融情绪判断。

c.金融数理计算:考察模型对于金融领域各实际场景的辨识与逻辑分析能力以及熟练使用金融学公式解决实际问题的能力。具体子类任务包括:数值计算、逻辑分析。

应用能力

d.合规与风险管理:考察模型对于国内金融监管制度与行业标准的掌握与应用能力以及协助用户分析业务潜在的金融风险并提出相应管控措施的能力。具体子类任务包括:金融合规、风险管理应用。

e.投研应用:考察模型对于宏观经济、市场走势、行业发展以及公司业务与股市行情的把控与分析能力,协助用户在投资研究阶段做出正确的判断与决策。具体子类任务包括:宏观分析、个股分析、市场解读、行业分析、公司点评、财报点评。

f.投顾应用:考察模型作为用户的投资顾问协助用户完成投资策略的分析与制定。具体子类任务包括:泛投顾问答、基金分析。

2.2 评价标准

a.符合基本要求:回答应遵循用户意图,满足用户提出问题的基本目的和需求,试图对问题进行恰当的回应。

b.知识正确:答案所涉及到的专业词汇解读、使用应完全正确,包括专业名词、金融公式、金融理论、经济领域相关知识等。

c.逻辑专业:答案的分析逻辑应具备一定的专业性,解读问题的角度应具有金融信息解读的思维和层次。

d.语言与清晰度:答案表达清晰易懂,使用了简洁的语言和结构,以便用户可以轻松理解。

e.计算能力与效率:对于金融领域的计算问题应当高效响应并给出正确结果。同时应该具有详细的分析与计算过程、公式引用应该正确无误。

f.分析企业综合业务能力:针对企业的特征与需求,如产品、市场、投资、财务等多个层面的业务进行专业的分析。

g.判断指向明确:答案应对金融意图、金融情绪、行业走向、经济形势等基本情况给出明确的、具有指向性的判断。

h.措施稳健性:金融及投资建议应具备一定的稳健性,即为用户提出安全、可靠的投资策略。避免冒险倾向。

i.金融安全与合规:答案应符合国家金融行业管控制度以及国内市场运行标准。针对国内外具有差异的金融行业与制度解读标准,应以国内解读作为唯一标准。

j.风险预测与管控:答案应对问题中潜在的金融风险问题做出明确判断,并针对风险提出相应的管理、控制策略。

k.行业洞察力:在做到对行业形势、发展等的基本判断的前提下,答案提出的观点与建议需要具备一定的高度与深度,可以透过问题看到本质,进而辅助用户作出最佳判断。

2.3 测评及计分方式

整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。

1)模型答案获取
通过多轮或单轮问答形式,使用API 调用方式来获取模型的答案。

2)评价获取

对于每个任务类型都有一个或多个评价维度,每个维度按照评分标准分为5级,定义为1-5分。结合参考答案使用超级模型进行打分,模型回答的得分是对应各个维度得分的平均值。例如“金融知识百科”中的“精算师”任务,设定四个评价打分维度:
a.符合基本要求:回答应遵循用户意图,满足用户提出问题的基本目的和需求,试图对问题进行恰当的回应;
b.知识正确:答案所涉及到的专业词汇解读、使用应完全正确,包括专业名词、金融公式、金融理论、经济领域相关知识等;
c.语言与清晰度:答案表达清晰易懂,使用了简洁的语言和结构,以便用户可以轻松理解;
d.计算能力与效率:对于金融领域的计算问题应当高效响应并给出正确结果。同时应该具有详细的分析与计算过程、公式引用应该正确无误。

3)计算模型得分

SC-Fin评分规则说如下:

本次测评共设置题目1025道,其中多轮问答924道,单轮问答101道,最终通过计算各模型以上题目答案均值,并通过归一化为百分制分数作为模型的测评得分。

4)测评过程示例

任务类型:【金融数理计算—逻辑分析】
a.问题
某上市公司连续三年ROE高于25%,但其市盈率却低于行业平均水平。公司管理层认为市场对公司价值存在低估,因此决定启动股票回购计划。问:公司此举的逻辑是什么?股票回购是否能够有效提升股价?
b.答案
公司决定启动股票回购计划的逻辑基于以下几点:
1. 价值低估:该公司的ROE(净资产收益率)连续三年高于25%,远高于许多公司,这表明其盈利能力强且使用资本的效率高。而市盈率低于行业平均水平可能表明市场没有充分反映公司的经营成果和未来增长潜力,即市场可能低估了公司的真实价值。
2. 信号传递:通过公开市场回购股票,公司管理层向市场传递了一个信号,即他们认为公司股票当前的市场价格低于其内在价值。这种做法常被视为管理层对公司前景的自信以及股票当前估值被低估的信号。
3. 提升每股指标:股票回购会减少市场上流通的股份总数,从而提高每股收益(EPS)和其他每股指标,因为公司的利润被分配给更少的股份。这种改善通常被视为股价上涨的催化剂。
4. 资本结构优化:通过股票回购,公司可能在寻求优化其资本结构,利用现有的现金储备,或是认为回购股票是当前环境下资本的最佳分配方式。
股票回购是否能够有效提升股价:
股票回购能否有效提升股价取决于多个因素,包括回购规模、市场条件、公司的基本面以及投资者的预期等。理论上,如果其他条件不变,减少流通在市场上的股份总数会提高每股收益(EPS),且因为回购表达了公司对自身价值的信心,通常能够正面影响投资者情绪,短期内推高股价。然而,长期股价走势则更多取决于公司的基本面表现,如盈利能力、增长前景和行业地位等。
此外,如果市场参与者认为股票回购是因为公司缺乏更好的投资机会而采取的措施,这可能不会对股价产生持续的正面影响。因此,股票回购并不总是能保证股价上涨,其效果需要结合公司的具体情况和市场环境综合判断。
c.评价
我的思考与答案:
公司决定实行股票回购可能基于几个原因。首先,连续三年的高ROE表明公司经营效益良好,而市盈率低于行业平均水平可能意味着市场对公司价值的评估不足。股票回购可以是一种向市场传达信心的手段,表明管理层认为当前股价被低估了。其次,股票回购会降低公司股票的流通量,理论上也有助于提升每股收益(EPS),这可能对股价有正面影响。最后,这也可能是公司资本分配策略的一部分,通过回购优化资本结构。至于回购是否能够有效提升股价,则取决于多种因素,如执行回购时的市场状况、公司基本面和投资者对于该行动的预期等。
问题及改进的反馈意见:
AI助手的回答已经非常全面地分析了可能的动机和回购行为的影响。然而,它没有指出股票回购可能的风险,例如可能会被市场解读为公司缺少更好的增长机会。此外,AI助手在分析过程中也没有提及回购行为对股价的实际影响存在的不确定性和限制条件。这些添加的信息有助于给出一个更全面和平衡的视角。
打分与评价开始:
基于标准“符合基本要求”:AI助手的回答紧扣问题核心,充分满足用户的提问目的,提供了详尽的解释。基于“符合基本要求”得分标准,得4分;
基于标准“推理准确性”:AI助手的答案显示了专业的金融知识,合理地分析了市场心理和公司决策逻辑。尽管回答较为全面,但在提及股票回购可能带来的消极影响时略显不足。基于“推理准确性”得分标准,得3分;
基于标准“结论合理性”:AI助手提供了清晰的结论,指出股票回购对股价的正面影响可能随其他因素变化而有所不同,但没有探讨当股票回购可能不那么合理时的情况。基于“结论合理性”得分标准,得4分。
综合以上,AI助手的回答的综合得分(平均分)为3.67。
2.4 测评可靠性分析
为了验证本次测评标准的可靠性与数据集的实用性,在进行正式测评之前,我们选取了四个国内外具有代表性的模型进行了测评可靠性实验,具体实验过程如下:
我们从1000+道题目中针对4个模型,每个模型随机抽取了120道题目进行人工复审,审核内容及标准包括:
评价质量分为:优秀,良好 ,及格,不及格
完全不符合自己的判断:不及格(60以下),
基本符合自己的判断:及格(60或以上)或良好(75或以上);
特别符合自己的判断,评价的特别好:优秀(85或以上)
最后统计及格的题目的比例。
最终各模型可靠性指标结果如下:

可见,测评可靠性较高。
2.5 模型等级评定机制说明

为了进一步提升SuperCLUE评测体系的专业度与认知度,增强用户感知与共识,进一步标准化测评流程与结果公示,从本次SuperCLUE-Fin测评开始,SuperCLUE将正式推出模型等级评定机制,具体规则说明如下:

其中第一梯队模型需满足条件:模型等级不低于A、基础能力等级与应用能力等级至少一项不低于A,即模型可以达到满足ToC及ToB的两种业务需求;第二梯队模型需满足条件:模型等级不低于B、基础能力等级不低于B、应用能力等级不低于C,即模型可以基本满足ToC业务需求,但需提升ToB业务能力;第三梯队模型即为等级为C或D的,需同时提升ToC与ToB两大业务需求的、具备发展潜力的模型。

注:临界点分数采取就高原则。

测评结果

总等级榜单

任务大类等级榜单

各任务等级榜单

金融知识百科榜单

金融理解认知榜单

金融数理计算榜单

合规与风险管理榜单

投研应用榜单

投顾应用榜单

测评分析

1. 金融总体能力分析
从模型等级角度看,目前仅有GPT-4 Turbo在总成绩中达到了A+的级别,国内的GLM-4与MoonShot-v1-128k等级达到A,讯飞星火V3.5与文心一言4.0等级达到了B,其他大部分模型处于C等级,表明国内金融大模型的落地与成熟仍有一定的距离。
2. 各任务得分分析
从基础能力与应用能力的分类角度来看,各模型总体上基础能力要远好于应用能力,除GPT-4 Turbo外,其他所有模型的应用能力等级均小于等于B。由此可见,各模型在金融知识领域的问答能力方面整体表现为知识库健全、知识应用水平不足的特点。
从六类具体任务得分角度来看,各模型各类任务得分较为均衡,其中GLM-4表现较为优异,获得了一项A+、三项A与两项B,且与GPT-4 Turbo各任务等级相差较小。总体来看,国内头部各模型在各类任务中的表现均较好,普遍优于至少不低于GPT-4或GPT-3.5 Turbo水平。
3. 金融专项能力分析
在测评过程中我们发现,各模型在金融数理计算方面表现存在较大差异,其差异在分数上的体现并不明显,但在答案获取阶段则存在一些问题。由于国内外对部分金融学理论及公式的解读口径不尽相同,因此对于同一个问题的解答也存在部分差异。
我们考察了金融知识百科与金融数理计算两项任务之间的相关关系:

由上图分析可知,在不考虑模型计算能力对于最终结果影响的前提下,模型对于金融学知识的掌握程度越高,模型对于相同的金融数理计算问题的解决能力越强。这显示了提高金融大模型数据库质量、完善模型对于金融学问题的解释标准对于提升金融大模型性能的必要性。

4. 答案细粒度分析

在测评过程中,我们发现模型在处理一些实际生活或工作中的应用问题时,存在对问题理解出现偏差或不到位的现象,暴露了大模型在深入金融领域细节并妥善处理细节问题的能力有待提高。具体示例如下:

可见,模型对于较为细节的问题存在混淆与错用,不能很好地深入问题本质来给出较为确切的答案。

结论

1. 从金融大模型综合能力上看,国内外头部模型差距较小。体现了国内大模型在金融领域综合能力上有一定的竞争力。在各项任务领域,较多国内模型得分超过GPT-4与GPT-3.5 Turbo,总体表现良好。

2. 在本次金融测评中,依据模型表现,国内大模型大致可以分为三个梯队:第一梯队包括GLM-4与MoonShot-v1-128k,其等级为A,低于GPT-4 Turbo,但在国内表现最为突出;第二梯队包括讯飞星火V3.5与文心一言4.0,其等级为B,性能优于GPT-4;第三梯队模型则以部分金融专项大模型为主,等级集中在C及以下。
3. 从金融大模型专项能力上来看,真正实现大语言模型在金融领域的高度专业化水准仍然有一定的距离。提高金融大模型数据库质量、完善模型对于金融学问题的解释标准(尤其是依据国内标准),亦或为提升金融大模型性能的关键路径。

# 示例

础能力-金融知识百科
示例1:基金从业资格知识

问题:QDII基金的净值发布规定:QDII基金在净值发布方面有何特殊要求?

追问:这些规定对投资者透明度和信心有何影响?

示例2:精算师

问题:一家保险公司使用索赔数据来预测未来的健康保险费用。如果过去五年的平均索赔率为2.5%,平均索赔金额为1,500元,预计未来索赔率将上升10%,公司应如何调整其保费?

追问:如果预计索赔金额将上升20%,保费需要调整多少以应对成本上升?

示例3:理财规划师知识

问题:如何优化投资组合以增强其抗风险能力?

追问:请详细解释资产配置和分散投资的区别及其重要性。

基础能力-金融理解认知

示例4:金融文件总结摘要

问题:请根据已知信息,回答问题。对下面的内容进行摘要总结。要求:字数不超过150个字,重点突出、内容有条理。

已知信息:安培龙(301413)公司主营温度、压力传感器,下游主要是汽车电子、家电。公司产品线包括热敏电阻及温度传感器、氧传感器、压力传感器,下游应用主要在汽车、家电、工控储能等。近些年来,压力传感器收入占比提升明显。

...<中间省略>...

此外,公司已取得欧洲一家知名主机厂客户多款MEMS压力传感器项目,部分项目已于2024年第一季度开始实现了SOP。

基础能力-金融数理计算

示例5:数值计算

问题:投资组合分散化:小红投资了四种不同的股票,每种股票的投资比例和预期收益率分别为:A股票30%、5%,B股票30%、6%,C股票20%、7%,D股票20%、8%,计算其投资组合的预期收益率。

追问:如果A股票的预期收益率下降到3%,整个投资组合的预期收益率将如何调整?

示例6:逻辑分析

问题:某上市公司连续三年ROE高于25%,但其市盈率却低于行业平均水平。公司管理层认为市场对公司价值存在低估,因此决定启动股票回购计划。问:公司此举的逻辑是什么?股票回购是否能够有效提升股价?

追问:这一决策还需要考虑哪些因素?

应用能力-合规与风险管理

示例7:金融合规

问题:高频交易在证券市场中的监管政策是什么?

追问:这些政策如何影响市场的公平性和透明度?

应用能力-投研应用

示例8:行业分析
问题:根据已知信息回答问题。
已知信息:标题:煤炭开采行业跟踪周报:淡季需求延续弱势 煤价企稳震荡。来源:东吴证券。
内容:行业近况:动力煤方面,淡季需求维持弱势,港口煤价企稳震荡。本周(4 月7 日至4 月12 日)港口动力煤现货价环比下跌15 元/吨,报收801 元/吨。
...<中间省略>...
我们维持行业“增持”评级,推荐高弹性标的广汇能源、广汇物流,建议关注昊华能源;此外我们仍旧推荐保险OCI 资金配置高股息标的:中国神华、陕西煤业,建议关注兖矿能源。风险提示:下游需求不及预期;保供力度强于预期,煤价大幅下跌。
请问,根据当前市场趋势,为什么对2024年上半年煤价持续乐观的态度?
追问:目前煤炭市场的供需情况如何,并如何影响煤价走势?
示例9:公司点评
问题:根据已知信息回答问题。
以下为文章内容:
4月11日,百胜中国(HK09987,股价299.8港元,市值1179亿港元)发布致股东的公开信,公司首席执行官屈翠容在信中提到:公司计划加快步伐,在未来三年内至少再回馈股东30亿美元
...<中间省略>...
与此同时,灵活的门店模式帮助我们降低了前期投资成本,强大的自有供应链管理能力及物流网络则帮助我们触达偏远地区,这些都让我们占据了有力的竞争优势。
请问,百胜中国2023年经营利润达11亿美元,核心经营利润增长79%。基于公司未来3年的门店扩张计划和低线城市布局,你如何看待其盈利能力和估值合理性?相比同行业公司有何优势?

追问:贝因美集团债务问题频现,反映出公司治理和资金管理方面存在哪些不足?公司未来在融资、投资决策等方面需要哪些改进措施?

应用能力-投顾应用
示例10:泛投顾问答
问题:期货投资:最近大宗商品价格波动较大,请问个人投资者应该如何参与期货市场?

追问:相比证券投资,期货投资在杠杆率、交易机制等方面有何特点?风险和收益如何?

测评申请

一、测评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

二、申请测评地址

本次测评为首批大模型测评,后续会持续更新专用金融大模型测评结果,欢迎金融模型研发机构申请报名。

邮件标题:SuperCLUE-Fin金融大模型测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Fin

修改于
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存